Posts tagged with "Deep Learning"

文档的分层注意力网络

November 14, 2025 1215 words • 7 min read

Hierarchical Attention Networks for Document Classification 这篇论文引入了一个分层的注意力网络：它使用结构化的注意力，先理解单词，再理解句子，最后理解整篇文档。 HAN 由下面的组件组成： 1. 单词序列 Encoder：使用 Encoder 对句子中的单词进行处理。这个和 Seq2Seq 中的 Encoder 类似。 2...

#Deep Learning #RNN #NLP #Document Classification

Mobile Net 网络与深度可分离卷积层

November 5, 2025 654 words • 4 min read

深度可分离卷积 (Depthwise Separable Convolution) 本质是一种分解卷积，它把一个标准的卷积操作分解成下面两个操作： 1. 深度卷积 (Depthwise Convolution)：负责卷积。 2...

#Deep Learning #CNN #CV

NiN 网络与 1x1 卷积核

November 4, 2025 1190 words • 6 min read

在讲解具体的 NiN 网络架构前，我们先谈谈 1x1 卷积核。一般而言，对二维信号进行 1x1 卷积是没有意义的。但是在 CNN 中，整个空间是三维的，这个卷积核的实际大小为 $1\times 1\times \text{num{\_}channels}$。在这个卷积核在原有的 $m\times n$ 图像空间的每一个位置，都会与该点的 $\text{num{\_}channels}$...

#Deep Learning #CV #CNN

感受野

November 3, 2025 1577 words • 8 min read

感受野（Receptive Field）指的是在输入图像上，能够影响到 CNN 中**某一个特定特征**值的那片区域。它的基本属性为中心位置和尺寸。例如下面这个例子： <Image src={image_2025_11_03_20_51_00} alt="alt text" /> 这里的绿色特征图的每一个绿色点都是由一个 3x3 卷积层在蓝色的输出图上平移得到的，因此它的感受野为3。...

#Deep Learning #CNN

VGGNet 网络

November 2, 2025 388 words • 2 min read

VGGNet 这一网络架构揭示了网络深度对模型性能的影响，它只使用简单的 3x3 卷积核就得到了非常好的结果。 VGGNet 网络的设计哲学如下： 1. 使用小卷积核：全部使用很小的 3x3 卷积核。 2...

#Deep Learning #CV #CNN

AlexNet 网络

November 2, 2025 151 words • 1 min read

AlexNet大胆地构建了一个比LeNet深得多、宽得多的网络，并通过在 ImageNet 上的结果证明了：当网络足够深、数据足够多时，CNN的性能可以超过所有传统方法。原始 AlexNet 的网络架构如下： . [alt text](alexnet-frame-and-demo-images/2025-11-02-11-18-32...

#Deep Learning #CV #CNN

LeNet 网络

November 1, 2025 333 words • 2 min read

LeNet 通过较为简单的网络架构，实现了下面的目标： 1. 有效的特征提取：使用“卷积层+池化层”的特征提取模块。 2...

#Deep Learning #CV #CNN

lr-shedule

October 18, 2025 83 words • 1 min read

Write your blog post content here. This is a new blog post...

#Deep Learning

批归一化补充

October 18, 2025 2033 words • 11 min read

批归一化的理论知识与实现在[之前 CS289 的作业中](https://fyerfyer. dev/blog/cs289-hw6-code/)已经有详细讲解了，这里谈论下对批归一化的一些理解。批标准化（BN）能够稳定网络，从而允许使用远高于常规的学习率进行训练，而不会导致模型发散（即训练失败）。我们使用 CIFAR-10 数据集做下面这个简单的实验： ```python def...

#Deep Learning

参数初始化

October 18, 2025 1243 words • 7 min read

在前面的笔记中，我们提到了梯度爆炸与梯度消失的问题： - 如果梯度连乘项中的每一个因子都小于 1，那么一长串小于 1 的数字相乘，结果会以指数级速度缩小，迅速趋近于 0。 - 如果梯度连乘项中的每一个因子都大于 1，那么一长串大于 1 的数字相乘，结果就会以指数级速度增大，变得异常巨大。导致这些现象的根本原因在于不恰当的信号流。而我们可以**用方差来衡量信号的强度**： - 方差接近于...

#Deep Learning